JSAI2026 物体検出と空間関係知識を統合した詳細なシーングラフ構築手法の提案 - daiiz

JSAI2026 物体検出と空間関係知識を統合した詳細なシーングラフ構築手法の提案

ロボットの自立行動プロセス

認識 → 判断 → 制御

認識 → 判断

センシング結果を情報に変換する必要がある

シーングラフ生成

画像内の物体（ノード）とそれらの位置関係（エッジ）を表現する

既存手法

EGTR

Transformerベース

OvSGTR、PGSG

VLMベース

提案

空間関係ネットワークの構築

gpt-4oに2物体の位置関係を記述させる

グラフ化

物体検出

gpt-4oで物体名をオープンボキャブラリで列挙

ネットワーク探索

最短トリプレットの発見

課題

不自然な関係を選んでしまうことあり

onを選ぶべきところ、aboveになってしまうなど

クリームの上に葉っぱがあることを検出できず

「葉っぱ」は木の枝に付いているというはずだという固定観念の影響？

「ミント」だったらいけたかもしれない